DataFrame এবং Series এর ধারণা

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Pandas: Data Manipulation

369

Python-এর Pandas লাইব্রেরি ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণের জন্য দুটি প্রধান ডেটা স্ট্রাকচার সরবরাহ করে: DataFrame এবং Series। এগুলির সাহায্যে আপনি সহজে টেবিল আকারে ডেটা পরিচালনা করতে পারেন, যেমন কলাম এবং সারি নিয়ে কাজ করা। এদের মধ্যে পার্থক্য এবং ব্যবহার বুঝতে হলে প্রথমে এদের মৌলিক ধারণা জানা দরকার।

১. Series:

Series হল Pandas এর একটি মৌলিক ডেটা স্ট্রাকচার, যা একমাত্র একটি ভেক্টরের মতো কাজ করে, এবং এটি একটি একমাত্র কলামের ডেটার প্রতিনিধিত্ব করে। Series একটি একমাত্রিক (1D) আ্যারে যা লেবেলযুক্ত ডেটা ধারণ করে।

মৌলিক বৈশিষ্ট্য:

এটি একমাত্র ডেটা কলাম ধারণ করে (যেমন, একটি মাত্র তালিকা বা অ্যারে)।
প্রতিটি উপাদানের সাথে একটি index (ইন্ডেক্স) থাকে যা তার অবস্থান নির্দেশ করে।
Series সাধারণত সংখ্যাত্মক, স্ট্রিং অথবা অন্য যে কোন ডেটা টাইপ ধারণ করতে পারে।

উদাহরণ:

import pandas as pd

# একটি সিম্পল Series তৈরি করা
data = [10, 20, 30, 40, 50]
series = pd.Series(data)

# সিরিজটি দেখানো
print(series)

আউটপুট:

0    10
1    20
2    30
3    40
4    50
dtype: int64

এখানে, সিরিজটি একটি একমাত্র ডেটা কলাম ধারণ করে, এবং প্রতিটি উপাদানের একটি ইন্ডেক্স (0, 1, 2, 3, 4) থাকে।

Index সহ Series:

Series তৈরি করতে ইন্ডেক্স প্রদান করা সম্ভব:

series_with_index = pd.Series(data, index=["a", "b", "c", "d", "e"])
print(series_with_index)

আউটপুট:

a    10
b    20
c    30
d    40
e    50
dtype: int64

এখানে, প্রতিটি ডেটা উপাদান একটি নির্দিষ্ট ইন্ডেক্স (a, b, c, d, e) দ্বারা চিহ্নিত।

২. DataFrame:

DataFrame হল একটি দ্বিমাত্রিক (2D) টেবিল ডেটা স্ট্রাকচার, যা কলাম এবং সারি নিয়ে গঠিত। এটি এক বা একাধিক Series এর সমষ্টি, এবং প্রতিটি Series একটি নির্দিষ্ট কলাম প্রতিনিধিত্ব করে।

মৌলিক বৈশিষ্ট্য:

এটি একাধিক কলাম ধারণ করতে পারে, যেখানে প্রতিটি কলাম একটি Series।
প্রতিটি কলামের জন্য একটি আলাদা index থাকতে পারে।
DataFrame সাধারণত ডেটা বিশ্লেষণ, টেবিল আকারে ডেটা দেখানো এবং পরিচালনার জন্য ব্যবহৃত হয়।

উদাহরণ:

import pandas as pd

# ডেটার একটি dictionary তৈরি করা
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

# DataFrame তৈরি করা
df = pd.DataFrame(data)

# DataFrame প্রদর্শন
print(df)

আউটপুট:

      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston
4      Eva   29      Phoenix

এখানে, DataFrame তে তিনটি কলাম (Name, Age, City) এবং পাঁচটি সারি রয়েছে। প্রতিটি কলামের একটি নাম (যেমন, "Name", "Age", "City") এবং প্রতিটি সারির একটি ইন্ডেক্স (0, 1, 2, 3, 4) রয়েছে।

Index সহ DataFrame:

DataFrame এ কলামের নাম এবং সারির ইন্ডেক্স কাস্টমাইজ করা যেতে পারে:

df_custom_index = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])
print(df_custom_index)

আউটপুট:

      Name  Age         City
a    Alice   24     New York
b      Bob   27  Los Angeles
c  Charlie   22      Chicago
d    David   32      Houston
e      Eva   29      Phoenix

এখানে, DataFrame-এর সারির ইন্ডেক্স পরিবর্তন করা হয়েছে (a, b, c, d, e)।

DataFrame এবং Series এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Series	DataFrame
আয়তন	একমাত্রিক (1D)	দ্বিমাত্রিক (2D)
ডেটা	একটি কলামের ডেটা	একাধিক কলামের ডেটা
ইন্ডেক্স	একটি একক ইন্ডেক্স (প্রত্যেক উপাদানের জন্য)	একাধিক কলামের জন্য পৃথক পৃথক ইন্ডেক্স
ডেটার ধরন	সংখ্যাত্মক, স্ট্রিং বা অন্যান্য ডেটা	একাধিক ধরন: সংখ্যাত্মক, স্ট্রিং, টাইমস্ট্যাম্প
উদাহরণ	একটি কলামের ডেটা (যেমন, একক বৈশিষ্ট্যের তালিকা)	একাধিক বৈশিষ্ট্য, যেমন নাম, বয়স, শহর
ব্যবহার	সাধারণত একক বৈশিষ্ট্য বিশ্লেষণ	টেবিল আকারে ডেটা বিশ্লেষণ এবং ব্যবস্থাপনা

সারাংশ

Series: এটি Pandas এর একটি একমাত্রিক ডেটা স্ট্রাকচার, যা এক কলামের ডেটা ধারণ করে। এর সাথে একটি ইনডেক্স থাকে, যা প্রতিটি উপাদানকে চিহ্নিত করে।
DataFrame: এটি Pandas এর একটি দ্বিমাত্রিক ডেটা স্ট্রাকচার, যা একাধিক কলাম এবং সারি নিয়ে গঠিত। এটি Series-এর একটি সংগ্রহ যা একত্রে ডেটা টেবিলের মতো কাজ করে।

Pandas DataFrame এবং Series উভয়ই ডেটা বিশ্লেষণ ও প্রক্রিয়াকরণের জন্য অত্যন্ত গুরুত্বপূর্ণ, এবং এগুলির সাহায্যে আপনি সহজে ডেটা ম্যানিপুলেশন এবং বিশ্লেষণ করতে পারেন।

Content added By

Md Azizar Rahman Aziz

Pandas এর পরিচিতি এবং ইনস্টলেশন DataFrame থেকে Data Selection এবং Filtering Missing Data Handle করা (fillna(), dropna()) Data Aggregation এবং Grouping Techniques (groupby())

DataFrame এবং Series এর ধারণা

১. Series:

মৌলিক বৈশিষ্ট্য:

উদাহরণ:

Index সহ Series:

২. DataFrame:

মৌলিক বৈশিষ্ট্য:

উদাহরণ:

Index সহ DataFrame:

DataFrame এবং Series এর মধ্যে পার্থক্য

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

DataFrame এবং Series এর ধারণা

১. Series:

মৌলিক বৈশিষ্ট্য:

উদাহরণ:

Index সহ Series:

২. DataFrame:

মৌলিক বৈশিষ্ট্য:

উদাহরণ:

Index সহ DataFrame:

DataFrame এবং Series এর মধ্যে পার্থক্য

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!